50 research outputs found

    Dimensionality Reduction of very large document collections by Semantic Mapping

    Get PDF
    This paper describes improving in Semantic Mapping, a feature extraction method useful to dimensionality reduction of vectors representing documents of large text collections. This method may be viewed as a specialization of the Random Mapping, method proposed in WEBSOM project. Semantic Mapping, Random Mapping and Principal Component Analysis (PCA) are applied to categorization of document collections using Self-Organizing Maps (SOM). Semantic Mapping generated document representation as good as PCA and much better than Random Mapping

    Indización automática de artículos científicos sobre Biblioteconomía y Documentación con SISA, KEA y MAUI

    Get PDF
    This article evaluates the SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) and MAUI (Multi-Purpose Automatic Topic Indexing) automatic indexing systems to find out how they perform in relation to human indexing. SISA’s algorithm is based on rules about the position of terms in the different structural components of the document, while the algorithms for KEA and MAUI are based on machine learning and the statistical features of terms. For evaluation purposes, a document collection of 230 scientific articles from the Revista Española de Documentación Científica published by the Consejo Superior de Investigaciones Científicas (CSIC) was used, of which 30 were used for training tasks and were not part of the evaluation test set. The articles were written in Spanish and indexed by human indexers using a controlled vocabulary in the InDICES database, also belonging to the CSIC. The human indexing of these documents constitutes the baseline or golden indexing, against which to evaluate the output of the automatic indexing systems by comparing terms sets using the evaluation metrics of precision, recall, F-measure and consistency. The results show that the SISA system performs best, followed by KEA and MAUI.Este artículo evalúa los sistemas de indización automática SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) y MAUI (Multi-Purpose Automatic Topic Indexing) para averiguar cómo funcionan en relación con la indización realzada por especialistas. El algoritmo de SISA se basa en reglas sobre la posición de los términos en los diferentes componentes estructurales del documento, mientras que los algoritmos de KEA y MAUI se basan en el aprendizaje automático y las frecuencia estadística de los términos. Para la evaluación se utilizó una colección documental de 230 artículos científicos de la Revista Española de Documentación Científica, publicada por el Consejo Superior de Investigaciones Científicas (CSIC), de los cuales 30 se utilizaron para tareas formativas y no formaban parte del conjunto de pruebas de evaluación. Los artículos fueron escritos en español e indizados por indizadores humanos utilizando un vocabulario controlado en la base de datos InDICES, también perteneciente al CSIC. La indización humana de estos documentos constituye la referencia contra la cual se evalúa el resultado de los sistemas de indización automáticos, comparando conjuntos de términos usando métricas de evaluación de precisión, recuperación, medida F y consistencia. Los resultados muestran que el sistema SISA funciona mejor, seguido de KEA y MAUI

    Panorama de estudos sobre Indexação Automática no âmbito da Ciência da Informação no Brasil (1973-2012)

    Get PDF
    Apresenta um panorama dos estudos sobre a indexação automática no âmbito da ciência da informação no Brasil, por meio do mapeamento e análise da produção acadêmica e científica nacional no período de 1973 a 2012. Como objetivos específicos, caracteriza o corpus de análise quanto aos objetivos e aspectos metodológicos através da análise de conteúdo dos documentos; bem como descreve a institucionalização das pesquisas através de estudo bibliométrico, observando autoria, instituições publicadoras, ano, fonte de informação e instituições acadêmicas. A metodologia tem natureza exploratória e bibliográfica, de caráter quali-quantitativo, pautada nas técnicas de análise bibliométrica e análise de conteúdo. Os resultados bibliométricos apontam a autora Fujita como maior produtora; a revista Ciência da Informação como maior publicadora; o século XXI concentrando a maior parte da produção; o periódico como principal meio de divulgação; a instituição Universidade de Brasília como o maior produtor. A análise de conteúdo aponta que 35% dos trabalhos realiza revisão bibliográfica, enquanto 65% investiga a proposição e/ou aplicação de fórmula, método ou sistema de Indexação Automática. Conclui-se que há uma tendência em estudos sobre a indexação automática por extração por meio dos sintagmas nominais e indexação automática por atribuição através de vocabulário controlado

    Método de normalização de sintagmas nominais na indexação automática

    Get PDF
    This work proposes and evaluates a method of standardisation ofnoun phrases in canonical terms. This procedure aims to contribute to thequalitative improvement of automatic indexing avoiding the terminologicaldispersion and preserving the keywords present within the noun phrases. Theresearch is exploratory and empirical, based on bibliographic research and anexperiment in a corpus composed of scientific articles in Information Science.The proposed standardisation method contains rules and criteria that follow theconstraints of preserving the valid structure of the noun phrase and thekeywords. The method evaluation consists of the analysis of the presence ofterms of the Brazilian Thesaurus in Information Science (TBCI) in the nounphrases resulting from the application of the proposed rules and criteria. Themethod consists of two stages: the first consists of 85 rules to reduce the size ofthe noun phrases, and the second stage contains seven criteria responsible foreliminating unnecessary grammatical elements from the noun phrases. Theresults of the evaluation indicate that the proposed method allows theachievement of positive results, even with two criteria of the second stage notpresenting results for the corpus. It concludes that the application of the methodin automatic indexing system is feasible and brings good results.Propõe e avalia um método de normalização de sintagmas nominais em termos canônicos, que visa contribuir para a melhora qualitativa da indexação automática, evitando a dispersão terminológica e preservando as palavras-chave dos autores, presentes no interior dos sintagmas nominais. A pesquisa é exploratória e empírica, pautada em pesquisa bibliográfica e realização de um experimento em um corpus de artigos científicos da área de Ciência da Informação. O método proposto é constituído por regras e critérios de normalização que obedecem às restrições de preservação da estrutura válida do sintagma nominal e das palavras-chave. O método proposto é avaliado através da presença de termos do Tesauro Brasileiro em Ciência da Informação (TBCI) nos sintagmas nominais resultantes da aplicação das regras e critérios. O método consiste em duas etapas: a primeira é composta por 85 regras para minimizar os sintagmas nominais extensos; a segunda etapa é composta por sete critérios responsáveis por eliminar dos sintagmas nominais elementos gramaticais desnecessários em sua estrutura. Os resultados da avaliação indicam que o método de normalização permite o alcance de resultados positivos, mesmo com dois critérios da segunda etapa não apresentando resultados para o corpus utilizado. Conclui-se que a aplicação do método de normalização em sistema de indexação automática é viável e traz bons resultados

    Dimensionality Reduction of very large document collections by Semantic Mapping

    Get PDF
    This paper describes improving in Semantic Mapping, a feature extraction method useful to dimensionality reduction of vectors representing documents of large text collections. This method may be viewed as a specialization of the Random Mapping, method proposed in WEBSOM project. Semantic Mapping, Random Mapping and Principal Component Analysis (PCA) are applied to categorization of document collections using Self-Organizing Maps (SOM). Semantic Mapping generated document representation as good as PCA and much better than Random Mapping

    Modelos colaborativos de indexação social e sua aplicabilidade em bibliotecas digitais │ Collaborative models of social indexation and its applicability in digital libraries

    Get PDF
    RESUMO Este trabalho discute os modelos colaborativos de indexação social e sua aplicabilidade em bibliotecas digitais. Objetiva identificar na literatura científica de ciência da informação os principais estudos cujo foco está relacionado à construção de modelos que propõem a integração da folksonomia em metadados de sistemas de recuperação da informação. Discorre sobre aspectos relativos à folksonomia a partir da perspectiva do processo de descrição dos documentos em ambiente digital, identificando tipos de modelos colaborativos cujas regras podem ser aperfeiçoadas ou diretamente aplicadas para a indexação colaborativa de objetos informacionais em bibliotecas digitais. A metodologia da pesquisa é bibliográfica e exploratória, pautada pela revisão de literatura sobre a folksonomia, modelos colaborativos de indexação social, metadados e bibliotecas digitais. Conclui-se que há a necessidade de criar metodologias para o uso de metadados gerados pelos usuários, com o objetivo de melhorar a representação da informação em bibliotecas digitais. Palavras-chave: Modelos Colaborativos; Indexação social; Folksonomia; Bibliotecas Digitais. ABSTRACT This article discusses collaborative models of social indexing and their applicability in digital libraries. The objective is to identify in the scientific literature of information science the major studies whose focus is related to the construction of models that propose the integration of folksonomy in metadata for information retrieval systems. It discusses aspects of the folksonomy from the perspective of document description processes in a digital environment, identifying types of collaborative models whose rules can be improved or directly applied to the collaborative indexing of informational objects in digital libraries. The research methodology is bibliographical and exploratory, based on literature review on folksonomy, collaborative models of social indexing, metadata and digital libraries. It concludes that there is a need to create methodologies for use of user-generated metadata, aiming to improve information representation in digital libraries. Keywords: Collaborative Models; Social Indexing; Folksonomy; Digital Libraries

    Automatic indexing of scientific articles on Library and Information Science with SISA, KEA and MAUI

    Get PDF
    This article evaluates the SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) and MAUI (Multi-Purpose Automatic Topic Indexing) automatic indexing systems to find out how they perform in relation to human indexing. SISA algorithm is based on rules about the position of terms in the different structural components of the document, while the algorithms for KEA and MAUI are based on machine learning and the statistical features of terms. For evaluation purposes, a document collection of 230 scientific articles from the Revista Española de Documentación Científica published by the Consejo Superior de Investigaciones Científicas (CSIC) was used, of which 30 were used for training tasks and were not part of the evaluation test set. The articles were written in Spanish and indexed by human indexers using a controlled vocabulary in the InDICES database, also belonging to the CSIC. The human indexing of these documents constitutes the baseline or golden indexing, against which to evaluate the output of the automatic indexing systems by comparing terms sets using the evaluation metrics of precision, recall, F-measure and consistency. The results show that the SISA system performs best, followed by KEA and MAUI

    Morphophysiological performance genotypes of semi-late maturity / late soybean under flooding

    Get PDF
    A região Sul do Rio Grande do Sul possui regiões de solos de várzea, as quais estão sujeitas a alagamento, e estão sendo cada vez mais cultivadas com soja. O objetivo do trabalho foi avaliar alterações morfofisiológicas cultivares de soja de ciclo semi-tardio/tardio, sob alagamento do solo no estádio fenológico vegetativo e reprodutivo. Os experimentos foram conduzidos na Estação Experimental de Terras Baixas, da Embrapa Clima Temperado, no município do Capão do Leão, RS. Três sistemas de manejo da água foram aplicados condição normal de cultivo, alagamento no período vegetativo e alagamento em período reprodutivo. Durante o ciclo da cultura foram avaliados altura de plantas, diâmetro da haste principal, índice do teor de clorofila, redução do índice do teor de clorofila, fenologia e número de nós na haste por planta. O alagamento reduz o número de nós na haste principal, reduzindo a estatura das plantas, sendo os efeitos mais acentuados quando o alagamento ocorre no estádio vegetativo. Altura de planta indica que a cultivar CLBRS 9911 apresentam maior tolerância ao alagamento, já as cultivares CD 219 RR, Embrapa 45 e PCL 06 - 08 os menores. Os valores de índice do teor de clorofila indicam como mais promissor a cultivar FT-Abyara. O alagamento do solo tanto no estádio vegetativo como no estádio reprodutivo, causa retardamento de ocorrência dos estádios fenológicos, bem como do ciclo total de cultivares de soja.The southern region of Rio Grande do Sul has several areas of lowland soils, which are subject to flooding, and are increasingly being planted with soybeans. The objective was to evaluate changes morphophysiological soybean cultivars of semi-late maturity / late under flooding in vegetative and reproductive growth stage. The experiments were conducted at Estação Experimental de Terras Baixas, Embrapa Clima Temperado, in Capão do Leão, RS. Three water management systems are in normal condition of cultivation, flooding in the vegetative stage and flooding in reproductive stage. During the crop cycle were evaluated plant height, diameter of the main stem, chlorophyll content index, reduction of chlorophyll content index, phenology and number of nodes on the stem per plant. Flooding reduces the number of nodes on the main stem, reducing plant height, with the most pronounced effects when flooding occurs in the vegetative stage. Plant height indicates that the farming CLBRS 9911 have increased tolerance to flooding, since the RR 219 CD cultivars Embrapa 45 and PCL 06 - 08 minors. The chlorophyll content index values indicate more promising cultivar FT-Abyara. The flooding both in the vegetative stage and in the reproductive stage, because of delay occurrence of phenological stages and the total soybean cultivars cycle.Facultad de Ciencias Agrarias y Forestale

    Morphophysiological performance genotypes of semi-late maturity / late soybean under flooding

    Get PDF
    A região Sul do Rio Grande do Sul possui regiões de solos de várzea, as quais estão sujeitas a alagamento, e estão sendo cada vez mais cultivadas com soja. O objetivo do trabalho foi avaliar alterações morfofisiológicas cultivares de soja de ciclo semi-tardio/tardio, sob alagamento do solo no estádio fenológico vegetativo e reprodutivo. Os experimentos foram conduzidos na Estação Experimental de Terras Baixas, da Embrapa Clima Temperado, no município do Capão do Leão, RS. Três sistemas de manejo da água foram aplicados condição normal de cultivo, alagamento no período vegetativo e alagamento em período reprodutivo. Durante o ciclo da cultura foram avaliados altura de plantas, diâmetro da haste principal, índice do teor de clorofila, redução do índice do teor de clorofila, fenologia e número de nós na haste por planta. O alagamento reduz o número de nós na haste principal, reduzindo a estatura das plantas, sendo os efeitos mais acentuados quando o alagamento ocorre no estádio vegetativo. Altura de planta indica que a cultivar CLBRS 9911 apresentam maior tolerância ao alagamento, já as cultivares CD 219 RR, Embrapa 45 e PCL 06 - 08 os menores. Os valores de índice do teor de clorofila indicam como mais promissor a cultivar FT-Abyara. O alagamento do solo tanto no estádio vegetativo como no estádio reprodutivo, causa retardamento de ocorrência dos estádios fenológicos, bem como do ciclo total de cultivares de soja.The southern region of Rio Grande do Sul has several areas of lowland soils, which are subject to flooding, and are increasingly being planted with soybeans. The objective was to evaluate changes morphophysiological soybean cultivars of semi-late maturity / late under flooding in vegetative and reproductive growth stage. The experiments were conducted at Estação Experimental de Terras Baixas, Embrapa Clima Temperado, in Capão do Leão, RS. Three water management systems are in normal condition of cultivation, flooding in the vegetative stage and flooding in reproductive stage. During the crop cycle were evaluated plant height, diameter of the main stem, chlorophyll content index, reduction of chlorophyll content index, phenology and number of nodes on the stem per plant. Flooding reduces the number of nodes on the main stem, reducing plant height, with the most pronounced effects when flooding occurs in the vegetative stage. Plant height indicates that the farming CLBRS 9911 have increased tolerance to flooding, since the RR 219 CD cultivars Embrapa 45 and PCL 06 - 08 minors. The chlorophyll content index values indicate more promising cultivar FT-Abyara. The flooding both in the vegetative stage and in the reproductive stage, because of delay occurrence of phenological stages and the total soybean cultivars cycle.Facultad de Ciencias Agrarias y Forestale

    Morphophysiological performance genotypes of semi-late maturity / late soybean under flooding

    Get PDF
    A região Sul do Rio Grande do Sul possui regiões de solos de várzea, as quais estão sujeitas a alagamento, e estão sendo cada vez mais cultivadas com soja. O objetivo do trabalho foi avaliar alterações morfofisiológicas cultivares de soja de ciclo semi-tardio/tardio, sob alagamento do solo no estádio fenológico vegetativo e reprodutivo. Os experimentos foram conduzidos na Estação Experimental de Terras Baixas, da Embrapa Clima Temperado, no município do Capão do Leão, RS. Três sistemas de manejo da água foram aplicados condição normal de cultivo, alagamento no período vegetativo e alagamento em período reprodutivo. Durante o ciclo da cultura foram avaliados altura de plantas, diâmetro da haste principal, índice do teor de clorofila, redução do índice do teor de clorofila, fenologia e número de nós na haste por planta. O alagamento reduz o número de nós na haste principal, reduzindo a estatura das plantas, sendo os efeitos mais acentuados quando o alagamento ocorre no estádio vegetativo. Altura de planta indica que a cultivar CLBRS 9911 apresentam maior tolerância ao alagamento, já as cultivares CD 219 RR, Embrapa 45 e PCL 06 - 08 os menores. Os valores de índice do teor de clorofila indicam como mais promissor a cultivar FT-Abyara. O alagamento do solo tanto no estádio vegetativo como no estádio reprodutivo, causa retardamento de ocorrência dos estádios fenológicos, bem como do ciclo total de cultivares de soja.The southern region of Rio Grande do Sul has several areas of lowland soils, which are subject to flooding, and are increasingly being planted with soybeans. The objective was to evaluate changes morphophysiological soybean cultivars of semi-late maturity / late under flooding in vegetative and reproductive growth stage. The experiments were conducted at Estação Experimental de Terras Baixas, Embrapa Clima Temperado, in Capão do Leão, RS. Three water management systems are in normal condition of cultivation, flooding in the vegetative stage and flooding in reproductive stage. During the crop cycle were evaluated plant height, diameter of the main stem, chlorophyll content index, reduction of chlorophyll content index, phenology and number of nodes on the stem per plant. Flooding reduces the number of nodes on the main stem, reducing plant height, with the most pronounced effects when flooding occurs in the vegetative stage. Plant height indicates that the farming CLBRS 9911 have increased tolerance to flooding, since the RR 219 CD cultivars Embrapa 45 and PCL 06 - 08 minors. The chlorophyll content index values indicate more promising cultivar FT-Abyara. The flooding both in the vegetative stage and in the reproductive stage, because of delay occurrence of phenological stages and the total soybean cultivars cycle
    corecore